Pixel-TTS: Síntesis de voz robusta mediante texto como imagen Descubre Pixel-TTS, el primer modelo de texto a voz que trata el texto como imagen para mejorar robustez, convergencia rápida y generalización zero-shot. 2026-06-16 · 2 min